ssunguotu

  • 主页
  • 随笔
所有文章 关于我

ssunguotu

  • 主页
  • 随笔

[爬虫]正则表达式笔记

2019-10-12

正则表达式笔记

正则表达式

1. 基本匹配

例如:一个正则表达式 the,它表示一个规则:由字母t开始,接着是h,再接着是e,逐个字符的与输入的正则表达式做比较。

正则表达式是大小写敏感的,所以The不会匹配the。

2. 元字符

正则表达式主要依赖于元字符。 元字符不代表他们本身的字面意思,他们都有特殊的含义。一些元字符写在方括号中的时候有一些特殊的意思。以下是一些元字符的介绍:

元字符 描述
. 句号匹配任意单个字符除了换行符。
[ ] 字符种类。匹配方括号内的任意字符。注释:任意一个字符
[^ ] 否定的字符种类。匹配除了方括号里的任意字符
* 匹配>=0个重复的在*号之前的字符。
+ 匹配>=1个重复的+号前的字符。
? 标记?之前的字符为可选.
{n,m} 匹配num个大括号之间的字符 (n <= num <= m).
(xyz) 字符集,匹配与 xyz 完全相等的字符串.
| 或运算符,匹配符号前或后的字符.
\ 转义字符,用于匹配一些保留的字符 `[ ] ( ) { } . * + ? ^ $ \
^ 从开始行开始匹配.
$ 从末端开始匹配.

注意区分

“+”和“×”的区别: 一个是不出现也行,一个是至少出现一次。

赏

谢谢你请我吃糖果

  • 爬虫

扫一扫,分享到微信

微信分享二维码
[RoboCup]步态评价函数研究
[数据结构]AOE图和关键路径
  1. 1. 正则表达式
    1. 1.1. 1. 基本匹配
    2. 1.2. 2. 元字符
© 2021 ssunguotu
Hexo Theme Yilia by Litten
  • 所有文章
  • 关于我

tag:

  • hexo生成错误
  • 数据结构
  • <数据结构>
  • 爬虫
  • tst
  • 算法题
  • A*搜索

    缺失模块。
    1、请确保node版本大于6.2
    2、在博客根目录(注意不是yilia根目录)执行以下命令:
    npm i hexo-generator-json-content --save

    3、在根目录_config.yml里添加配置:

      jsonContent:
        meta: false
        pages: false
        posts:
          title: true
          date: true
          path: true
          text: false
          raw: false
          content: false
          slug: false
          updated: false
          comments: false
          link: false
          permalink: false
          excerpt: false
          categories: false
          tags: true
    

没啥东西。